草庐IT

MySQL ORDER BY 多列 ASC 和 DESC

全部标签

sql - “Hive” 多列的最大列值

您好:我有一种情况需要在3个计算字段中找到最大值并将其存储在另一个字段中,是否可以在一个SQL查询中完成?下面是例子SELECTIncome1,Income1*2%asPersonal_Income,Income2,Income2*10%asShare_Income,Income3,Income3*1%asJob_Income,Max(Personal_Income,Share_Income,Job_Income)FromTable我尝试的一种方法是在我使用的第一遍和第二遍中计算Personal_Income、Share_Income、Job_IncomeSelectCasewhenP

sql - 在选择中具有多列的配置单元查询并按一列分组

我有下面的数据集示例图像和预期结果。在具有十亿条记录的数据集中实现这种结果的最佳方法是什么。我们应该使用中间临时表还是在1个查询中。要求:-获取表中超过2条记录的SN的所有记录,只显示Price为100的记录CREATETABLEtest(`sn`string,`itemA`string,`itemB`string,`price`int)insertintotabletestvalues('1','A','D',100),('1','B','E',100),('1','C','F',200),('2','A','D',100),('2','C','F',200);

python - 在配置单元中使用 python udf 时如何查询多列?

我正在尝试执行此查询:addFILE/home/user1/test/test_udf.py;SELECTa.hash_code,col2FROM(SELECTtransform(col2,col3)using'pythontest_udf.py'ashash_code,col2FROMsample_table)a;我能够使用udf成功生成hash_code,但另一列(col2)被填充为NULL。示例输出:sjhfshhalksjlkfj128798172jasjhasNULLajsdlkja982988290819189089089889NULLjhsad817982mnsandkj

hadoop - Sqoop中增量数据如何指定多列?

我正在使用以下查询在sqoop中获取增量数据-bin/sqoopjob--createJOB_NAME--import--connectjdbc:oracle:thin:/system@HOST:PORT:ORACLE_SERVICE--usernameUSERNAME--password-file/PASSWORD_FILE.txt--fields-terminated-by','--enclosed-by'"'--tableSCHEMA.TABLE_NAME--target-dir/TARGET_DIR-m2--incrementalappend--check-columnNVL(

python - 如何将多列(即时间、年、月和日期)转换为 pyspark 数据框中的日期时间格式

Dataframe有4列year,month,date,hhmmhhmm-小时和分钟连接在一起例如:10:30等于1030dd=spark.createDataFrame([(2019,2,13,1030),(2018,2,14,1000),(2029,12,13,0300)],["Year","month","date","hhmm"])dd.collect()pysparkdataframedd中日期时间格式的预期输出dd.collect()2019-02-1310:30:002018-2-1410:00:002019-12-1303:00:00 最佳答

hadoop - 使用 groupby 计算不同多列的 Hive 优化

我正在对MapReduce进行hive(1.4-cdh)代码优化,在我的项目中,我们使用了很多带有groupby子句的不同计数操作,下面显示了一个示例hql。DROPTABLEIFEXISTStestdb.NewTablePURGE;CREATETABLEtestdb.NewTableASSELECTa.*FROM(SELECTcol1,COUNT(DISTINCTcol2)AScol2,COUNT(DISTINCTcol3)AScol3,COUNT(DISTINCTcol4)AScol4,COUNT(DISTINCTcol5)AScol5FROMBaseTableGROUPBYcol

sql - 调用多列时 Hive SQL 不同列语法错误

在使用WITH子句和一系列内部联接后,我试图回调三列:Employees、SalesID和COUNT(DISTINCT),但遇到语法错误。这是针对带有hivesql的hadoop环境。使用SELECTEmployees、SalesID、Workload,所有适当的数据召回;但是,执行COUNT(DISTINCT)时会出现语法问题。成功的结果:SELECTSalesID,COUNT(DISTINCTworkload)ASCasesGROUPBYSalesID同样成功的结果:SELECTEmployeeName,SalesID,WorkloadASCasesORDERBYSalesID语法

hadoop - 如何按多列分组,然后在 Hive 中转置

我有一些数据,我想在多列上进行分组,对其执行聚合函数,然后使用Hive转置到不同的列中。例如,给定这个输入输入:hrtypevalue01a1001b2001c5001a3002c1002b9002a80我想产生这个输出:输出:hra_avgb_avgc_avg0120205002809010我的输入中每个不同的type都有一个不同的列。a_avg对应于每小时的平均a值。我如何在Hive中执行此操作?我猜我可能需要使用https://github.com/klout/brickhouse/wiki/Collect-UDFs到目前为止,我能想到的最好的方法是使用多个group-by子句,

hadoop - hbase 设计连接长键值对与多列

请帮助我了解在HBase中存储信息的最佳方式。基本上,我有一个像hashed_uid+date+session_id这样的行键,带有持续时间、日期、时间、位置、深度等指标。我读了很多我有点困惑的Material。人们建议减少列族以获得更好的性能,因此我面临三个选择:让每个指标排成一行,如rowkey_keycf1->alias1:value有很多列,比如rowkeycf1->key1:val1,cf1->key2:val2...将所有键值对编码成一个大字符串,如rowkeycf1->"k1:v1,k2:v2,k3:v3..."提前致谢。我不知道该选择哪个。我的HBase设计目标是为用户

sql - 在 Hive 中将单行列拆分为多列

我有一个这样的Hive表ID1Name1ID2Name2ID3Name3....1ABC2MNP3XYZ11LMP12PLL13UIP此表可能有任何编号。列对(即ID和名称)我需要将上面的表转换成一个只有2列ID和Name的新Hive表,如下所示IDName1ABC2MNP3XYZ11LMP12PLL13UIP请建议我如何在Hive中实现这一目标。谢谢 最佳答案 selectexplode(map(*))as(id,name)frommytable;+----+------+|id|name|+----+------+|1|ABC|